• Àüü
  • ÀüÀÚ/Àü±â
  • Åë½Å
  • ÄÄÇ»ÅÍ
´Ý±â

»çÀÌÆ®¸Ê

Loading..

Please wait....

±¹³» ÇÐȸÁö

Ȩ Ȩ > ¿¬±¸¹®Çå > ±¹³» ÇÐȸÁö > µ¥ÀÌÅͺ£À̽º ¿¬±¸È¸Áö(SIGDB)

µ¥ÀÌÅͺ£À̽º ¿¬±¸È¸Áö(SIGDB)

Current Result Document :

ÇѱÛÁ¦¸ñ(Korean Title) ´ë¿ë·® ¹®¼­ µ¥ÀÌÅÍ ¼Â¿¡¼­ ¸ÞŸµ¥ÀÌÅ͸¦ È°¿ëÇÑ ¹®¼­ À¯»çµµ °è»ê ¼º´É Çâ»ó
¿µ¹®Á¦¸ñ(English Title) Improving the Performance of Calculating Document Similarity Using Metadata in Large-Scale Datasets
ÀúÀÚ(Author) ±èÁ¤Àº   ÀÌÀç±æ   Jungeun Kim   Jae-Gil Lee  
¿ø¹®¼ö·Ïó(Citation) VOL 30 NO. 01 PP. 0089 ~ 0097 (2014. 04)
Çѱ۳»¿ë
(Korean Abstract)
´ë¿ë·® ¹®¼­ µ¥ÀÌÅÍ ¼Â¿¡¼­ ¸ðµç ¹®¼­ ½Ö¿¡ ´ëÇÑ À¯»çµµ¸¦ ÃøÁ¤Çϴ °ÍÀº °è»ê»ó ¿À¹öÇìµå°¡ ¸Å¿ì Å©´Ù. ÇÏÁö¸¸ À¯»çÇÒ °¡´É¼ºÀÌ ³ôÀº ¹®¼­ ½ÖÀ» ¿¹ÃøÇÏ°í À¯»çÇÒ °¡´É¼ºÀÌ ÇöÀúÈ÷ ³·Àº ¹®¼­ ½ÖÀ» °è»ê Àü¿¡ Á¦°Å ÇѴٸ頰è»ê»ó È¿À²À» Å©°Ô Çâ»ó ½Ãų ¼ö ÀÖ´Ù. º» ³í¹®¿¡¼­´Â ´ë¿ë·® ¹®¼­ µ¥ÀÌÅÍ ¼Â¿¡¼­ ¸ÞŸµ¥ÀÌÅ͸¦ È°¿ëÇÏ¿© ¹®¼­ À¯»çµµ °è»ê ¼º´ÉÀ» Çâ»ó½ÃÅ°´Â ¹æ¹ýÀ» Çмú ³í¹® µ¥ÀÌÅÍ ¼ÂÀ» Áß½ÉÀ¸·Î Á¦¾ÈÇÑ´Ù. ¹®¼­ÀÇ ¸ÞŸµ¥ÀÌÅͶõ ¹®¼­¸¦ ±â¼úÇÑ µ¥ÀÌÅͷΠ¹®¼­ÀÇ ¼Ó¼º Á¤º¸¸¦ ³»Æ÷Çϸç Çмú ³í¹®ÀÇ °æ¿ì¿¡´Â Á¦¸ñ, ¹ßÇàó, ÀúÀÚ µîÀÌ ÀÖ´Ù. Çмú ³í¹® °£ °ü·Ã¼ºÀ» ¹ßÇàó Á¤º¸¿Í ÀúÀÚ Á¤º¸¸¦ ÀÌ¿ëÇÏ¿© Á¤ÀÇÇÏ°í °ü·Ã¼ºÀÌ ³·Àº Çмú ³í¹®µéÀº À¯»çµµ °è»ê¿¡¼­ Á¦¿ÜÇÔÀ¸·Î½á È¿À²¼ºÀ» ³ôÀδÙ. 42¸¸°³ÀÇ ´ë¿ë·® Çмú ³í¹® µ¥ÀÌÅÍ ¼Â¿¡ ´ëÇØ ½ÇÇèÀ» ¼öÇàÇÏ¿´À¸¸ç Á¦¾ÈÇϴ ¹æ¹ýÀÌ ÀϹÝÀûÀΠ¹æ¹ýº¸´Ù 197¹è ³ôÀº ¼º´ÉÀ» º¸ÀÓÀ» È®ÀÎÇÏ¿´´Ù.
¿µ¹®³»¿ë
(English Abstract)
Calculating document similarity for every pair of documents in a large-scale document collection introduces high computational overhead. However, efficiency can be improved if we are able to predict dissimilar document pairs and remove those pairs before the calculation. In this paper, using the metadata of documents, we develop an efficient method of calculating document similarity for a huge number of documents, especially academic papers. The metadata of documents describes the documents using the attributes of a document, e.g., for academic papers, the title, venue, author, and so on. We define the relevancy between academic papers using the venue and author information and exclude irrelevant document pairs in order to boost the efficiency. We conducted extensive experiments using 0.42 million academic papers. The results demonstrated that our proposed method outperformed a baseline method by 197 times.
Å°¿öµå(Keyword) ´ë¿ë·® ¹®¼­ µ¥ÀÌÅÍ ¼Â   ¸ÞŸµ¥ÀÌÅÍ   ¹®¼­ À¯»çµµ   Çмú ³í¹®   Large-Scale Document Dataset   Metadata   Document Similarity   Academic Paper  
ÆÄÀÏ÷ºÎ PDF ´Ù¿î·Îµå